Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet

نویسندگان

  • José María Gómez Hidalgo
  • Enrique Puertas Sanz
  • Francisco Carrero García
  • Manuel de Buenaga Rodríguez
چکیده

The access to inapropiate Internet content is an increasing problem that can be approached as a cost-sensitive Automated Text Categorization task. In this paper, we report a series of experiments that compare a representative range of learning algorithms and methods for making them cost-sensitive, on two Web pages collections in Spanish and English. The results of our experiments are promising.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Personalización estructural basada en criterios de usabilidad

El filtrado personalizado en aplicaciones Web consiste básicamente en la selección un subconjunto de los elementos de un gran conjunto de objetos, de acuerdo a las características del usuario. Las técnicas más habituales para realizarlo, como son el filtrado basado en contenidos o el basado en las preferencias de grupos, utilizan de manera directa o indirecta información sobre el dominio de la ...

متن کامل

Buscadores de Contenidos para Bibliotecas Digitales: Desarrollo de una Arquitectura para un Buscador XML

Resumen. El gran crecimiento del volumen de datos en las bibliotecas digitales hace necesario el desarrollo de buscadores de información que permitan al usuario encontrar rápida y eficazmente aquello que requieren. El etiquetado XML de los textos permite incorporar información estructural en los contenidos digitales. Las enormes posibilidades de explotación de estos contenidos hacen posibles se...

متن کامل

X-Flow: Gestión de flujo de contenidos multilingües sobre XLIFF y TMX

El objetivo general del proyecto X-Flow es facilitar la gestión del flujo (Fisher, 2003) de contenidos multilingües en las distintas fases de desarrollo en proyectos de traducción y localización, con el fin de optimizar los recursos, especialmente en los sistemas de información y publicación en Internet. La localización es el proceso por el cual se adapta una aplicación a los requerimientos loc...

متن کامل

Desarrollo de un entorno virtual para la inducción emocional

Los entornos virtuales se han mostrado de gran ayuda en las técnicas de inducción emocional planteadas por la psicología clínica. Sin embargo la complejidad, el coste y el acceso a las tecnologías a menudo han supuesto un obstáculo considerable para desarrollar este tipo de herramientas. Aprovechando las el incremento de las herramientas y tecnologías que dan soporte a la creación de este tipo ...

متن کامل

Los proyectos SINAMED e ISIS: Mejoras en el Acceso a la Información Biomédica mediante la integración de Generación de Resúmenes, Categorización Automática de Textos y Ontologías

Los sistemas inteligentes de acceso a la información están integrando de manera creciente técnicas de minería de texto y de análisis del contenido, y recursos semánticos como las ontologías. En los proyectos ISIS y SINAMED juegan un papel central la utilización de categorización de texto, la extracción automática de resúmenes y las ontologías, para la mejora del acceso a la información en un do...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 31  شماره 

صفحات  -

تاریخ انتشار 2003